智能论文笔记

Streaming End-to-End Multilingual Speech Recognition with Joint Language Identification

Chao Zhang , Bo Li , Tara Sainath , Trevor Strohman , Sepand Mavandadi , Shuo-yiin Chang , Parisa Haghani

分类：自然语言处理

2022-09-13

语言识别对于自动语音识别（ASR）中的许多下游任务至关重要，并且有益于将多语言端到端的ASR集成为附加任务。在本文中，我们建议通过集成每帧语言标识符（LID）预测器来修改基于层压编码器的复发神经网络传感器（RNN-T）模型的结构。带有级联编码器的RNN-T可以使用不右键的第一通用解码来实现较低延迟的流动ASR，并使用二频道解码使用更长的右文本实现较低的单词错误率（WERS）。通过利用当前文章中的这种差异和统计池的流传输实现，该建议的方法可以实现准确的流盖预测，而几乎没有额外的测试时间成本。语音搜索数据集的实验结果具有9个语言语言位置，表明所提出的方法平均达到96.2％的盖子预测准确性，而与输入中的Oracle盖相同的二次通用方法。

translated by 谷歌翻译

由于无标记的文本和语音数据的广泛可用性，最近基于仅音频数据的仅文本和半监督培训已广受欢迎。在这项工作中，我们建议将纯文本和半监督培训纳入基于注意力的审议模型。通过将纯文本数据合并到培训审议文本编码器的变压器（BERT）的双向编码器表示中，以及使用联合声学和文本解码器（JATD）和半诉讼程序的大规模文本到语音和纯音频和音频话语培训，与基线审议相比，我们的各种任务减少了4％-12％。与最先进的语言模型（LM）纠正方法相比，审议模型将Google语音搜索降低了11％。我们表明，与具有合理的终端潜伏期的最先进的LM委员相比，审议模型还获得了正面的人类并排评估。

translated by 谷歌翻译

语言模型（LMS）显着提高端到端模型（E2E）模型在训练过程中很少见的单词的识别准确性，当时在浅融合或重新恢复设置中。在这项工作中，我们介绍了LMS在判别培训框架中学习混合自动回旋传感器（HAT）模型的研究，以减轻有关使用LMS的训练与推理差距。对于浅融合设置，我们在假设生成和损失计算过程中都使用LMS，而LM感知的MWER训练模型可实现10 \％的相对改进，比用标准MWER在语音搜索测试集中培训的模型相对改进，其中包含稀有单词。对于重新设置，我们学会了一个小型神经模块，以数据依赖性方式产生串联的融合权重。该模型与常规MWER训练的模型相同，但无需清除融合重量。

translated by 谷歌翻译